Model Selection

Multimodal fine-tuning

# Multimodal fine-tuning

A visual-language generation model fine-tuned for image-text retrieval tasks, improved based on google/flan-t5-xl

Transformers English

Clip Flant5 Xxl

A vision-language generation model fine-tuned based on google/flan-t5-xxl, specifically designed for image-text retrieval tasks

Transformers English

Vit Base Patch16 224 In21k Gpt2 Finetuned To Pokemon Descriptions

A vision-language model based on ViT and GPT2 architectures, specifically fine-tuned for Pokémon description generation tasks

Text Generation

Bert Hateful Memes Expanded

A model fine-tuned based on bert-base-uncased for identifying hateful meme text content

Text Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase